(廢文模式 on)
越來越像在寫故事而不是技術文了 0.0
(廢文模式 off)
谷歌在這個小節以自家的搜尋引擎為例,點出機器學習問題與資料間的相依性:
這個小節內容雖偏短,不過透過舉了搜尋引擎的例子(相對來說是比較不好想像「輸入」與「標籤」的問題),來讓大家了解機器學習的資料本身需具備的條件(inputs vs labels)。最後並提到了機器學習其實是在學習與信任樣本中做取捨。筆者認為這其實是一個很好的說法,在現今的 IOT (物聯網) 與網際網路成長飛躍的時代,資料的取得相較於過往方便許多,但在數量如此龐大的資料中,哪些資料又是值得信任的呢? 舉一般民眾在街上常碰到的街頭問卷為例,每個人所填寫的答案一定都是真正代表那個人的想法嗎?會不會有人刻意隱瞞呢?這樣的狀況又要如何面對呢?因此資料的清理與驗證,也是機器學習中非常重要的一環。但由於在這系列課程中,並沒有花太多篇幅討論資料正確性的問題,因此筆者也不多加贅述了,就煩請讀者們在自行上網谷歌吧~
(噢不明天要上班惹XD)